ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。我们将使用ORPO和TRL库对新的Llama 3 8b模型进行微调。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈